草庐IT

微调 Fine-tuning

全部标签

TrOCR模型微调【基于transformer的光学字符识别】

TrOCR(基于Transformer的光学字符识别)模型是性能最佳的OCR模型之一。在我们之前的文章中,我们分析了它们在单行打印和手写文本上的表现。然而,与任何其他深度学习模型一样,它们也有其局限性。TrOCR在处理开箱即用的弯曲文本时表现不佳。本文将通过在弯曲文本数据集上微调TrOCR模型,使TrOCR系列更进一步。在线工具推荐: Three.jsAI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器从前面的文章中我们知道TrOCR无法识别弯曲和垂直图像上的文本。这些图像是SCUT-CTW1500数据集的一部分。我们将在

对 ChatGLM-6B 做 LoRA Fine-tuning

对ChatGLM-6B做LoRAFine-tuning搭建依赖环境加载模型和Tokenizer分析模型结构配置LoRA构建数据集定义常量测试Tokenizer的编解码定义Prompt构建AttentionMask和PositionIDs创建数据集开始训练预测保存训练模型重载训练后的模型ChatGLM-6B是一个支持中英双语的对话语言模型,基于GLM(GeneralLanguageModel)。它只有62亿个参数,量化后最低(INT4量化)只需要6GB的显存,完全可以部署到消费级显卡上。在实际使用这个模型一段时间以后,我们发现模型的对话表现能力确实非常不错。那么,基于这个模型做Fine-tuni

大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2

增加LLM上下文长度可以提升大语言模型在一些任务上的表现,这包括多轮长对话、长文本摘要、视觉-语言Transformer模型的高分辨4k模型的理解力以及代码生成、图像以及音频生成等。对长上下文场景,在解码阶段,缓存先前token的Key和Value(KV)需要巨大的内存开销,其次主流的LLM模型在推理的时候上下文长度都小于等于训练时的上下文长度。为了约束长文本时缓存先前KV的内存和计算量,很容易想到的方法是对KV进行加窗选择,这样可以限制参与当前token计算的KV历史数量,将内存和计算量约束在可控的范围内。Llama2官方支持的标准版模型(下称基座模型)上下文长度是是4k,而Chinese-

【AWS系列】使用 Amazon SageMaker 微调和部署 ChatGLM 模型

前言大语言模型是一种基于深度学习技术的人工智能模型,可以追溯到早期的语言模型和机器翻译系统。直到最近,随着深度学习技术的崛起,大型预训练语言模型才开始引起广泛的关注。大语言模型使用大规模的文本数据集进行预训练,从而学习到丰富的语言知识和语境理解能力。通过预训练和微调的方式,大语言模型可以用于各种自然语言处理任务,例如文本生成、机器翻译、问答系统、对话系统等。它们在许多领域都展示出了令人印象深刻的性能,并成为推动人工智能技术发展的重要驱动力。本篇文章主要介绍如何使用 Amazon SageMaker 进行 ChatGLM 模型部署和微调的示例。这个示例主要包括:ChatGLM 总体介绍ChatG

ChatGLM2-6B微调实践-QLora方案

ChatGLM2-6B微调实践-QLora方案环境部署Lora微调项目部署准备数据集修改训练脚本adapter推理模型合并与量化合并后的模型推理参数调优微调过程中遇到的问题参考:环境部署申请阿里云GPU服务器:CentOS7.664Anaconda3-2023.07-1-Linux-x86_64Python3.11.5GPUNVIDIAA10(显存24G/1core)CPU8vCore/30G安装Anaconda、CUDA、PyTorch参考:ChatGLM2-6B微调实践-P-Tuning方案Lora微调项目部署gitclonehttps://github.com/shuxueslpi/ch

Code Llama系列教程之 微调 CodeLlama 34B 以进行聊天(打造自己的代码AI)

虽然Meta的Llama2在AI领域引起了广泛关注,但34b模型却缺席了相当长一段时间。对于许多人来说,这个34b模型是运行本地LLM的理想选择,因为它与使用4位量化的单个4090GPU兼容。我一直在热切地等待Meta发布这个特定的模型。幸运的是,Meta最近推出了CodeLlama,这是一个针对编码相关任务训练的专门模型。然而,根据他们的论文,由于原始Llama2模型是在2t个令牌上训练的,因此它在原始Llama2的34b个令牌上额外训练了500b个令牌。Codellama仅在训练期间添加了额外的500b令牌,并且从概念上讲将针对各种下游领域进行进一步微调。在这篇博文中,我将引导您完成微调C

Baichuan-13B 保姆级微调范例

干货预警:这可能是你能够找到的最容易懂的,最完整的,适用于各种NLP任务的Baichuan-13B-Chat的finetune教程~Baichuan-13B是百川智能于2023年7月11日发布的开源中英双语LLM,各项指标经评测在开源LLM中同尺寸模型中位居前列。Baichuan-13B包括Baichuan-13B-Base和Baichuan-13B-chat两个不同模型。前者仅仅是预训练模型,后者在前者基础上增加了SFT,RLHF等偏好对齐过程。本范例微调的模型是Baichuan-13B-Chat,我们使用非常简单的,外卖评论数据集来实施微调,对一段外卖评论区分是好评还是差评。可以发现,经过

全面对比GPT-3.5与LLaMA 2微调

通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。本文作者SamL'Huillier对GPT-3.5与LLaMA2的微调进行了基准测试,以验证手动微调的模型能否以较低的成本接近GPT-3.5的性能水平,从而帮助用户在各类任务中选择最佳微调模型。本文作者是微调实践者SamL'Huillier。Sam毕业于伦敦帝国理工学院,曾是Brev.dev的创始工程师,致力于构建GPU云。(本文由OneFlow编译发布,转载请联系授权。原文:https://ragntune.com/blog/gpt3.5-

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

金融领域为自然语言处理(NLP)模型带来了独特的挑战和机遇。当前,金融文本和数据的信息量和复杂性呈现爆炸式增长,一个强大、可靠的智慧金融系统可以满足多种不同用户群体的金融需要,例如辅助金融从业者完成行业分析、时事解读、金融计算、统计分析工作,为金融科技开发者完成情感分析、信息抽取任务,帮助学生解答金融问题等,从而有效地提高金融领域工作和学习的效率。金融领域本身具有高度的专业性,语言模型一方面要处理复杂的金融语言,另一方面要保证知识储备的实时性和对金融文本内数据计算的准确性,故而过往的模型通常无法在该领域提供令人满意的服务。金融领域迫切需要准确、高效的人工智能解决方案来有效处理金融行业的各种任务